6.4 协方差分析

1 模型统计背景

回顾前面的定义, 协方差分析组合了方差分析和回归分析. 它的模型形如 $\begin{matrix} (1.1) & y = X_{1} β + X_{2} γ + ε, \end{matrix}$ 这里 $X_{1} β$ 对应属性因子的部分 ( $X_{1}$ 是 $0 - 1$ 矩阵), 称为方差分析部分; $X_{2} γ$ 对应数量因子部分, 称为回归分析部分. 假设 $μ (X_{1}) \cap μ (X_{2}) = {0}$ , ^[1] $X_{2}$ 满列秩.

从试验角度, $X_{1} β$ 反映了人们精心设计、严格控制的部分, $X_{2} γ$ 则是人们无法掌控的因素.
最简单的例子就是在单向分类模型中添加一个因子的回归项: $y_{i k} = β_{0} + β_{i} + x_{i k} γ + ε_{i k_{i}}, i = 1, \dots, r, k_{i} = 1, \dots, n_{i},$ 这里 $n = \sum_{i = 1}^{r} n_{i}$ .

对于写方差模型中的回归项, 我们可以定义为干扰变量. 它在因果推断中有进一步的讨论. 例如, 处理对茶树产量影响模型中, 干扰变量可以是接受处理前的产量; 饲料对小猪增重影响的模型中, 可以是小猪的初重.

2 基本方法

修改模型 (1.1) 为 $y_{*} = X_{1} β + ε,$ 其中 $y_{*} = y - X_{2} γ$ . ^[2] 这里 $y_{*}$ 含了未知参数 $γ$ , 所以不能视为观察值向量. 处理方法是我们给 $γ$ 一个适当的估计量 $\hat{γ}$ 来代替, 从而得到 $\begin{matrix} (2.1) & z = X_{1} β + ε_{1}, \end{matrix}$ 这里 $z = y - X_{2} \hat{γ}$ .

对于 $\hat{γ}$ 的估计, 可以由消去方差分析部分的 (1.1) $P_{X_{1}^{2}} y = P_{X_{1}^{2}} X_{2} γ + P_{X_{1}^{2}} ε$ 估出. 它的正规方程是 $X_{2}^{T} P_{X_{1}^{2}} X_{2} \hat{γ} = X_{2}^{T} P_{X_{1}}^{2} y .$ 不难看出 $\begin{aligned} rank (X_{2}^{T} P_{X_{1}^{2}} X_{2}) = rank (P_{X_{1}^{2}} X_{2}) \\ = & rank X_{2} - \dim (μ (X_{1}) \cap μ (X_{2})) = rank X_{2}, \end{aligned}$ 从而 $\begin{aligned} \hat{γ} = (X_{2}^{T} P_{X_{1}^{2}} X_{2})^{- 1} X_{2}^{T} P_{X_{1}^{2}} y \\ \Rightarrow & z = [I - X_{2} (X_{2}^{T} P_{X_{1}^{2}} X_{2})^{- 1} X_{2}^{T} P_{X_{1}^{2}}] y . \end{aligned}$
因此 $X_{2} γ$ 已经被消除, 可以用纯方差分析模型 (2.1) 进行. 此时剩余平方和为 $\begin{aligned} {SS}_{ε^{*}} & = | | P_{X_{1}^{2}} z | |^{2} \\ = | | [P_{X_{1}}^{2} - P_{X_{1}^{2}} X_{2} (X_{2}^{T} P_{X_{1}^{2}} X_{2})^{- 1} X_{2}^{T} P_{X_{1}^{2}}] y | |^{2} \\ = y^{T} P_{X_{1}^{2}} y - y^{T} P_{X_{1}^{2}} X_{2} (X_{2}^{T} P_{X_{1}^{2}} X_{2})^{- 1} X_{2}^{T} P_{X_{1}^{2}} y \\ = y^{T} P_{X_{1}^{2}} y - y^{T} P_{μ} y, \end{aligned}$ 这里 $μ = μ (P_{X_{1}^{2}} X_{2})$ .
如果不引进协同变量, 相当于在最开始令 $γ = 0$ , 此时 ${SS}_{ε^{*}} = y^{T} P_{X_{1}^{2}} y$ , 故 $y^{T} P_{μ} y$ 这一项可以看作引进协同变量后精度方面的收获. 而对 (2.1) 做分析时候一定会出现 $X_{2}^{T} P_{X_{1}^{2}} y$ 这样的量, 就像 $X_{2}, y$ 的样本协方差, 所以也称为协方差分析.

2.1 显著性检验

设 $X_{2}$ 为 $q$ 列, 则同样可以考虑假设 $H_{0} : γ_{k + 1} = \dots = γ_{q} = 0.$ 记 $X_{2} = (X_{21} X_{22})$ , 其中 $X_{21}$ 为 $k$ 列. 则 $H_{0}$ 成立时, 模型为 $y = X_{1} β + X_{21} γ_{(1)} + ε, γ_{(1)} = (γ_{1}, \dots, γ_{k})^{T} .$ 它的剩余平方和 ${SS}_{0} = | | P_{(X_{1} X_{21})^{⊥}} y | |^{2}$ . 而 (1.1) 的剩余平方和为 ${SS}_{ε} = | | P_{(X_{1} X_{2})^{⊥}} y | |^{2}$ .
令 ${SS}_{H} = {SS}_{0} - {SS}_{ε}$ , 知 ${SS}_{H} ⊥ ⊥ {SS}_{ε}$ .
记 $rank X_{1} = r$ , 则 $F = \frac{{SS}_{H}}{{SS}_{ε}} \cdot \frac{n - r - q}{q - k} \sim F_{q - k, n - r - q, δ}$ 为检验量. $H_{0}$ 成立时 $δ = 0$ . 得到拒绝域 ${F \geq F_{q - k, n - r - q} (α)}$ .

$μ (X)$ 表示 $X$ 的列向量张成的线性子空间. ↩︎
因为推断的重点还是我们精心设计的部分也即 $β$ . ↩︎

1 模型 统计背景

2 基本方法

2.1 显著性检验

1 模型统计背景